【小哈划重点:简单来说,你可以把训练DeepSeek等大模型的过程看成一个“猜谜大师”的养成过程。在训练时,它会被“投喂”海量文本,但它不记忆具体知识,而是学习词语之间的关联规律,比如“狗喜欢吃……”后面大概率出现的词汇是“骨头”或“肉”,而不是“草”。】
2025年1月20日,大语言模型DeepSeek-R1横空出世。相对其他大语言模型,它以很低的训练成本达成极高的性能而为世人瞩目。
让机器“说话”
人类拥有极其复杂且高度发达的语言系统,可以运用口语、文字等抽象符号进行沟通,这也是人类区别于其他绝大部分生物的显著特征之一。因此,能理解丰富的词汇和复杂的语法,以及拥有强大的表意能力,是人类高级思维的重要体现。
自然语言处理(Natural Language Processing,简称NLP)是通过计算机实现语言分析,研究人机交互并进行有效通信的理论与技术。它旨在使计算机能够理解、处理和生成人类的语言,实现人机之间的有效交流。这需要将数学、语言学、计算机科学等多学科的理论与方法进行融合,是人工智能的重要研究方向。
不断更新的“语言理解”算法
1947年,沃伦·韦弗(Warren Weaver,美国数学家,被誉为“机器翻译之父”)提出“计算机语言自动翻译”理念。
机器翻译(machine translation)是自然语言处理最早的研究领域。经历了一系列技术进步,现在发展到了基于自注意力机制(Self-Attention)的Transformer模型(ChatGPT和DeepSeek都是基于Transformer模型开发的)。
自注意力机制是Transformer模型的核心创新点之一,它可以让模型在处理序列数据时,动态地关注输入序列的不同部分,计算每个位置与其他位置之间的关联程度,从而更好地捕捉文本中的长距离依赖关系。
“猜谜大师”养成记
简单来说,你可以把训练DeepSeek等大模型的过程看成一个“猜谜大师”的养成过程。在训练时,它会被“投喂”海量文本,但它不记忆具体知识,而是学习词语之间的关联规律,比如“狗喜欢吃……”后面大概率出现的词汇是“骨头”或“肉”,而不是“草”。随着训练量增大,它可以不断提高自己产生结果的概率和合理性,例如“地道”后面是“战”还是“美食”,它会根据上下文语境做出判断。
在对话阶段,Transformer模型主要采取边听边猜并不断优化的模式进行。例如,当你输入“为什么天空看起来是蓝色的”时,Transformer模型会利用自注意力机制拆解关键词,找到“天空”“蓝色”等关键词,然后根据在训练阶段掌握的规律找到“光的散射”和“大气层”等知识片段,再逐词生成完整的回答。在生成答案的过程中,它还可以根据反馈不断调整和优化结果。
更优秀的大语言模型之路
许多预训练语言模型都是通过增大训练参数规模来提高模型训练的效果的,但这样会对数据和算力有很高的要求,使得训练和部署模型的成本巨大。
DeepSeek的突出创新点之一在于,它主要是通过优化算法来达成较好的模型训练效果的,因此需求的训练数据相对较少、训练算力相对较低。在这一过程中,它使用的混合专家模型(Mixture of Experts,MoE)起到了突出作用。
为了更好地理解混合专家模型的工作机制,我们可以举个例子:一间准备装修的毛坯房,想要将它装好,需要20个泥瓦工、20个木工和10个油漆工,其他大模型会在整个施工期间都“养”着这50名工人,而DeepSeek则会根据施工需要,在特定的时段“雇佣”特定的工人,所以DeepSeek的训练成本更低。
此外,DeepSeek对图形处理器(GPU)和芯片进行了深度优化,进一步降低了模型训练和部署的成本。
同时,DeepSeek是开源的,它公布了自己的模型参数和训练工具链,吸引广大二次开发者对其应用和优化,迅速形成了自己的开发生态,从而进一步满足模型在医学、法律等特定领域的需求。
一次次的工业革命告诉我们,被迭代的始终是工具,大语言模型替代的是工具性技能,而非人类的能力——提出问题、定义价值、赋予意义。它无法取代人类“不理性”的价值、“无意义”的探索和“不完美”的联结。真正的危机或许不是“机器太过强大”,而是“人类太像机器”。如何对待疾速发展的人工智能技术,正是我们亟待解决的命题。
撰文/杨屹 律原(首都师范大学初等教育学院)
(责任编辑 / 牛一名 美术编辑 / 周游)
(文章插图未收录)